Serveur d'exploration sur l'OCR

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Correction de césures et enrichissement de requêtes par Wikipédia appliqués à la recherche de livres

Identifieur interne : 000350 ( Main/Exploration ); précédent : 000349; suivant : 000351

Correction de césures et enrichissement de requêtes par Wikipédia appliqués à la recherche de livres

Auteurs : Romain Deveaud [France] ; Florian Boudin [France] ; Eric Sanjuan [France] ; Patrice Bellot [France]

Source :

RBID : Hal:hal-01314943

Descripteurs français

Abstract

RÉSUMÉ. Les livres numérisés accessibles sur Internet constituent une importante source d'in-formation. Néanmoins, la Reconnaissance Optique des Caractères (ROC) introduit parfois des erreurs qui peuvent pénaliser la Recherche d'Information. Dans cet article nous proposons une méthode de correction des césures et nous en analysons l'impact sur une tâche de recherche de livres. Nous décrivons également une série d'expériences sur l'enrichissement de requêtes à partir de mots extraits de Wikipédia. Les résultats obtenus montrent qu'utiliser un grand nombre de mots ainsi qu'une répartition adéquate des poids entre la requête initiale et l'enrichissement apporte une amélioration significative par rapport à l'état de l'art. ABSTRACT. Digitized books are now a common source of information on the Web, however OCR sometimes introduces errors that can penalize Information Retrieval. In this paper we propose a method for correcting hyphenations and we analyse its impact on a standard book retrieval task. We also experiment query expansion with words extracted from the Wikipedia page related to the query. We show that there is a significant improvement over the state-of-the-art when using a large weighted list of words. MOTS-CLÉS : Livres numérisés, césures, enrichissement de requête, Wikipédia.

Url:


Affiliations:


Links toward previous steps (curation, corpus...)


Le document en format XML

<record>
<TEI>
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="fr">Correction de césures et enrichissement de requêtes par Wikipédia appliqués à la recherche de livres</title>
<author>
<name sortKey="Deveaud, Romain" sort="Deveaud, Romain" uniqKey="Deveaud R" first="Romain" last="Deveaud">Romain Deveaud</name>
<affiliation wicri:level="1">
<hal:affiliation type="laboratory" xml:id="struct-100376" status="VALID">
<orgName>Laboratoire Informatique d'Avignon</orgName>
<orgName type="acronym">LIA</orgName>
<desc>
<address>
<addrLine>339 Chemin des Meinajaries Agroparc BP 1228 84911 Avignon cedex 9</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://lia.univ-avignon.fr/</ref>
</desc>
<listRelation>
<relation active="#struct-195507" type="direct"></relation>
<relation active="#struct-302221" type="direct"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-195507" type="direct">
<org type="institution" xml:id="struct-195507" status="VALID">
<orgName>Université d'Avignon et des Pays de Vaucluse</orgName>
<orgName type="acronym">UAPV</orgName>
<desc>
<address>
<addrLine>74 rue Louis Pasteur - 84 029 Avignon cedex 1</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-avignon.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-302221" type="direct">
<org type="institution" xml:id="struct-302221" status="VALID">
<orgName>Centre d'Enseignement et de Recherche en Informatique - CERI</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName>
<settlement type="city">Avignon</settlement>
<region type="region" nuts="2">Provence-Alpes-Côte d'Azur</region>
</placeName>
<orgName type="university">Université d'Avignon</orgName>
</affiliation>
</author>
<author>
<name sortKey="Boudin, Florian" sort="Boudin, Florian" uniqKey="Boudin F" first="Florian" last="Boudin">Florian Boudin</name>
<affiliation wicri:level="1">
<hal:affiliation type="laboratory" xml:id="struct-100376" status="VALID">
<orgName>Laboratoire Informatique d'Avignon</orgName>
<orgName type="acronym">LIA</orgName>
<desc>
<address>
<addrLine>339 Chemin des Meinajaries Agroparc BP 1228 84911 Avignon cedex 9</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://lia.univ-avignon.fr/</ref>
</desc>
<listRelation>
<relation active="#struct-195507" type="direct"></relation>
<relation active="#struct-302221" type="direct"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-195507" type="direct">
<org type="institution" xml:id="struct-195507" status="VALID">
<orgName>Université d'Avignon et des Pays de Vaucluse</orgName>
<orgName type="acronym">UAPV</orgName>
<desc>
<address>
<addrLine>74 rue Louis Pasteur - 84 029 Avignon cedex 1</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-avignon.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-302221" type="direct">
<org type="institution" xml:id="struct-302221" status="VALID">
<orgName>Centre d'Enseignement et de Recherche en Informatique - CERI</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName>
<settlement type="city">Avignon</settlement>
<region type="region" nuts="2">Provence-Alpes-Côte d'Azur</region>
</placeName>
<orgName type="university">Université d'Avignon</orgName>
</affiliation>
</author>
<author>
<name sortKey="Sanjuan, Eric" sort="Sanjuan, Eric" uniqKey="Sanjuan E" first="Eric" last="Sanjuan">Eric Sanjuan</name>
<affiliation wicri:level="1">
<hal:affiliation type="laboratory" xml:id="struct-100376" status="VALID">
<orgName>Laboratoire Informatique d'Avignon</orgName>
<orgName type="acronym">LIA</orgName>
<desc>
<address>
<addrLine>339 Chemin des Meinajaries Agroparc BP 1228 84911 Avignon cedex 9</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://lia.univ-avignon.fr/</ref>
</desc>
<listRelation>
<relation active="#struct-195507" type="direct"></relation>
<relation active="#struct-302221" type="direct"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-195507" type="direct">
<org type="institution" xml:id="struct-195507" status="VALID">
<orgName>Université d'Avignon et des Pays de Vaucluse</orgName>
<orgName type="acronym">UAPV</orgName>
<desc>
<address>
<addrLine>74 rue Louis Pasteur - 84 029 Avignon cedex 1</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-avignon.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-302221" type="direct">
<org type="institution" xml:id="struct-302221" status="VALID">
<orgName>Centre d'Enseignement et de Recherche en Informatique - CERI</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName>
<settlement type="city">Avignon</settlement>
<region type="region" nuts="2">Provence-Alpes-Côte d'Azur</region>
</placeName>
<orgName type="university">Université d'Avignon</orgName>
</affiliation>
</author>
<author>
<name sortKey="Bellot, Patrice" sort="Bellot, Patrice" uniqKey="Bellot P" first="Patrice" last="Bellot">Patrice Bellot</name>
<affiliation wicri:level="1">
<hal:affiliation type="laboratory" xml:id="struct-100376" status="VALID">
<orgName>Laboratoire Informatique d'Avignon</orgName>
<orgName type="acronym">LIA</orgName>
<desc>
<address>
<addrLine>339 Chemin des Meinajaries Agroparc BP 1228 84911 Avignon cedex 9</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://lia.univ-avignon.fr/</ref>
</desc>
<listRelation>
<relation active="#struct-195507" type="direct"></relation>
<relation active="#struct-302221" type="direct"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-195507" type="direct">
<org type="institution" xml:id="struct-195507" status="VALID">
<orgName>Université d'Avignon et des Pays de Vaucluse</orgName>
<orgName type="acronym">UAPV</orgName>
<desc>
<address>
<addrLine>74 rue Louis Pasteur - 84 029 Avignon cedex 1</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-avignon.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-302221" type="direct">
<org type="institution" xml:id="struct-302221" status="VALID">
<orgName>Centre d'Enseignement et de Recherche en Informatique - CERI</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName>
<settlement type="city">Avignon</settlement>
<region type="region" nuts="2">Provence-Alpes-Côte d'Azur</region>
</placeName>
<orgName type="university">Université d'Avignon</orgName>
</affiliation>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">HAL</idno>
<idno type="RBID">Hal:hal-01314943</idno>
<idno type="halId">hal-01314943</idno>
<idno type="halUri">https://hal.archives-ouvertes.fr/hal-01314943</idno>
<idno type="url">https://hal.archives-ouvertes.fr/hal-01314943</idno>
<date when="2011-03">2011-03</date>
<idno type="wicri:Area/Hal/Corpus">000143</idno>
<idno type="wicri:Area/Hal/Curation">000143</idno>
<idno type="wicri:Area/Hal/Checkpoint">000091</idno>
<idno type="wicri:Area/Main/Merge">000355</idno>
<idno type="wicri:Area/Main/Curation">000350</idno>
<idno type="wicri:Area/Main/Exploration">000350</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="fr">Correction de césures et enrichissement de requêtes par Wikipédia appliqués à la recherche de livres</title>
<author>
<name sortKey="Deveaud, Romain" sort="Deveaud, Romain" uniqKey="Deveaud R" first="Romain" last="Deveaud">Romain Deveaud</name>
<affiliation wicri:level="1">
<hal:affiliation type="laboratory" xml:id="struct-100376" status="VALID">
<orgName>Laboratoire Informatique d'Avignon</orgName>
<orgName type="acronym">LIA</orgName>
<desc>
<address>
<addrLine>339 Chemin des Meinajaries Agroparc BP 1228 84911 Avignon cedex 9</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://lia.univ-avignon.fr/</ref>
</desc>
<listRelation>
<relation active="#struct-195507" type="direct"></relation>
<relation active="#struct-302221" type="direct"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-195507" type="direct">
<org type="institution" xml:id="struct-195507" status="VALID">
<orgName>Université d'Avignon et des Pays de Vaucluse</orgName>
<orgName type="acronym">UAPV</orgName>
<desc>
<address>
<addrLine>74 rue Louis Pasteur - 84 029 Avignon cedex 1</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-avignon.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-302221" type="direct">
<org type="institution" xml:id="struct-302221" status="VALID">
<orgName>Centre d'Enseignement et de Recherche en Informatique - CERI</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName>
<settlement type="city">Avignon</settlement>
<region type="region" nuts="2">Provence-Alpes-Côte d'Azur</region>
</placeName>
<orgName type="university">Université d'Avignon</orgName>
</affiliation>
</author>
<author>
<name sortKey="Boudin, Florian" sort="Boudin, Florian" uniqKey="Boudin F" first="Florian" last="Boudin">Florian Boudin</name>
<affiliation wicri:level="1">
<hal:affiliation type="laboratory" xml:id="struct-100376" status="VALID">
<orgName>Laboratoire Informatique d'Avignon</orgName>
<orgName type="acronym">LIA</orgName>
<desc>
<address>
<addrLine>339 Chemin des Meinajaries Agroparc BP 1228 84911 Avignon cedex 9</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://lia.univ-avignon.fr/</ref>
</desc>
<listRelation>
<relation active="#struct-195507" type="direct"></relation>
<relation active="#struct-302221" type="direct"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-195507" type="direct">
<org type="institution" xml:id="struct-195507" status="VALID">
<orgName>Université d'Avignon et des Pays de Vaucluse</orgName>
<orgName type="acronym">UAPV</orgName>
<desc>
<address>
<addrLine>74 rue Louis Pasteur - 84 029 Avignon cedex 1</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-avignon.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-302221" type="direct">
<org type="institution" xml:id="struct-302221" status="VALID">
<orgName>Centre d'Enseignement et de Recherche en Informatique - CERI</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName>
<settlement type="city">Avignon</settlement>
<region type="region" nuts="2">Provence-Alpes-Côte d'Azur</region>
</placeName>
<orgName type="university">Université d'Avignon</orgName>
</affiliation>
</author>
<author>
<name sortKey="Sanjuan, Eric" sort="Sanjuan, Eric" uniqKey="Sanjuan E" first="Eric" last="Sanjuan">Eric Sanjuan</name>
<affiliation wicri:level="1">
<hal:affiliation type="laboratory" xml:id="struct-100376" status="VALID">
<orgName>Laboratoire Informatique d'Avignon</orgName>
<orgName type="acronym">LIA</orgName>
<desc>
<address>
<addrLine>339 Chemin des Meinajaries Agroparc BP 1228 84911 Avignon cedex 9</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://lia.univ-avignon.fr/</ref>
</desc>
<listRelation>
<relation active="#struct-195507" type="direct"></relation>
<relation active="#struct-302221" type="direct"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-195507" type="direct">
<org type="institution" xml:id="struct-195507" status="VALID">
<orgName>Université d'Avignon et des Pays de Vaucluse</orgName>
<orgName type="acronym">UAPV</orgName>
<desc>
<address>
<addrLine>74 rue Louis Pasteur - 84 029 Avignon cedex 1</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-avignon.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-302221" type="direct">
<org type="institution" xml:id="struct-302221" status="VALID">
<orgName>Centre d'Enseignement et de Recherche en Informatique - CERI</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName>
<settlement type="city">Avignon</settlement>
<region type="region" nuts="2">Provence-Alpes-Côte d'Azur</region>
</placeName>
<orgName type="university">Université d'Avignon</orgName>
</affiliation>
</author>
<author>
<name sortKey="Bellot, Patrice" sort="Bellot, Patrice" uniqKey="Bellot P" first="Patrice" last="Bellot">Patrice Bellot</name>
<affiliation wicri:level="1">
<hal:affiliation type="laboratory" xml:id="struct-100376" status="VALID">
<orgName>Laboratoire Informatique d'Avignon</orgName>
<orgName type="acronym">LIA</orgName>
<desc>
<address>
<addrLine>339 Chemin des Meinajaries Agroparc BP 1228 84911 Avignon cedex 9</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://lia.univ-avignon.fr/</ref>
</desc>
<listRelation>
<relation active="#struct-195507" type="direct"></relation>
<relation active="#struct-302221" type="direct"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-195507" type="direct">
<org type="institution" xml:id="struct-195507" status="VALID">
<orgName>Université d'Avignon et des Pays de Vaucluse</orgName>
<orgName type="acronym">UAPV</orgName>
<desc>
<address>
<addrLine>74 rue Louis Pasteur - 84 029 Avignon cedex 1</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-avignon.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-302221" type="direct">
<org type="institution" xml:id="struct-302221" status="VALID">
<orgName>Centre d'Enseignement et de Recherche en Informatique - CERI</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName>
<settlement type="city">Avignon</settlement>
<region type="region" nuts="2">Provence-Alpes-Côte d'Azur</region>
</placeName>
<orgName type="university">Université d'Avignon</orgName>
</affiliation>
</author>
</analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc>
<textClass>
<keywords scheme="mix" xml:lang="fr">
<term>Book retrieval</term>
<term>Wikipedia</term>
<term>hyphenation</term>
<term>query expansion</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr">RÉSUMÉ. Les livres numérisés accessibles sur Internet constituent une importante source d'in-formation. Néanmoins, la Reconnaissance Optique des Caractères (ROC) introduit parfois des erreurs qui peuvent pénaliser la Recherche d'Information. Dans cet article nous proposons une méthode de correction des césures et nous en analysons l'impact sur une tâche de recherche de livres. Nous décrivons également une série d'expériences sur l'enrichissement de requêtes à partir de mots extraits de Wikipédia. Les résultats obtenus montrent qu'utiliser un grand nombre de mots ainsi qu'une répartition adéquate des poids entre la requête initiale et l'enrichissement apporte une amélioration significative par rapport à l'état de l'art. ABSTRACT. Digitized books are now a common source of information on the Web, however OCR sometimes introduces errors that can penalize Information Retrieval. In this paper we propose a method for correcting hyphenations and we analyse its impact on a standard book retrieval task. We also experiment query expansion with words extracted from the Wikipedia page related to the query. We show that there is a significant improvement over the state-of-the-art when using a large weighted list of words. MOTS-CLÉS : Livres numérisés, césures, enrichissement de requête, Wikipédia.</div>
</front>
</TEI>
<affiliations>
<list>
<country>
<li>France</li>
</country>
<region>
<li>Provence-Alpes-Côte d'Azur</li>
</region>
<settlement>
<li>Avignon</li>
</settlement>
<orgName>
<li>Université d'Avignon</li>
</orgName>
</list>
<tree>
<country name="France">
<region name="Provence-Alpes-Côte d'Azur">
<name sortKey="Deveaud, Romain" sort="Deveaud, Romain" uniqKey="Deveaud R" first="Romain" last="Deveaud">Romain Deveaud</name>
</region>
<name sortKey="Bellot, Patrice" sort="Bellot, Patrice" uniqKey="Bellot P" first="Patrice" last="Bellot">Patrice Bellot</name>
<name sortKey="Boudin, Florian" sort="Boudin, Florian" uniqKey="Boudin F" first="Florian" last="Boudin">Florian Boudin</name>
<name sortKey="Sanjuan, Eric" sort="Sanjuan, Eric" uniqKey="Sanjuan E" first="Eric" last="Sanjuan">Eric Sanjuan</name>
</country>
</tree>
</affiliations>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Ticri/CIDE/explor/OcrV1/Data/Main/Exploration
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 000350 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd -nk 000350 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Ticri/CIDE
   |area=    OcrV1
   |flux=    Main
   |étape=   Exploration
   |type=    RBID
   |clé=     Hal:hal-01314943
   |texte=   Correction de césures et enrichissement de requêtes par Wikipédia appliqués à la recherche de livres
}}

Wicri

This area was generated with Dilib version V0.6.32.
Data generation: Sat Nov 11 16:53:45 2017. Site generation: Mon Mar 11 23:15:16 2024